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FITS 变 长 数组 在 暗物质 卫星 数据 存储 中 的 应 用 研究 


REDA, AANA, ÆA, HBA, F b 
《1 中 国 科学 院 空间 信息 处 理 与 应 用 系统 技术 重点 实验 室 “北京 100190 
2 中 国 科学 院 电子 学 研究 所 ”北京 100190 
3 中 国 国际 工程 咨询 公司 北京 ”100048) 


WE: FITS 是 空间 天 文 领域 广泛 使 用 的 一 种 数据 格式 ， 空 间 天 文 数据 文件 通常 采用 定 
长 数据 结构 存储 为 FITS 文件 。 作 为 我 国 首 颗 发 射 的 空间 科学 卫星 ， 上 暗物质 粒子 探测 卫星 科 
学 数据 源 包 具 有 长 度 可 变 的 特点 。 在 暗物质 卫星 数据 处 理 过 程 中 ， 急 需 设计 支持 可 变 长 度数 
据 的 存储 结构 和 处 理 方法 。 设 计 了 一 种 支持 长 度 可 变数 组 的 FITS 格式 ， 并 实现 了 采用 该 数 
据 结构 的 数据 处 理 、 存 储 和 管理 。 应 用 于 上 暗物质 卫星 地 面 处 理 中 ， 验 证 结果 表明 ， 该 方法 实 
现 了 编辑 级 产品 数据 存储 ， 显 著 降低 了 产品 数据 量 ， 节 约 了 存储 空间 ， 同 时 提升 了 处 理 效 
率 。 
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FITS (Flexible Image Transport system) @ 是 一 种 在 空间 天 文 领域 广泛 使 用 的 数据 格式 
由， 目的 是 为 了 传输 、 分 析 和 归档 天 文科 学 数据 文件 。 自 20 世纪 80 年 代 FITS 格式 被 国际 天 
MUKA TAU) 确认 为 国际 标准 以 来 ， 大 部 分 天 文 数据 以 FITS 格式 在 世界 各 地 的 数据 中 
心 存储 和 交换 。 
美国 Chandra® 卫星 、Swift@ 卫星 、 欧 洲 EXOSAT® 卫星 等 国际 知名 的 天 文 卫星 数据 ， 欧 
洲 低频 射电 干涉 阵列 (Low Frequency Array, LOFAR) ©. W Ail ME BS ioe BE BL BE 
(Australia Telescope Compact Array, ATCA) 外 等 地 基 天 文 观测 数据 ， 以 及 我 国 HXMT E 
星 外 数据 均 采 用 FITS 格式 存储 。 以 中 国 科学 院 国 家 天 文 台 为 首 的 中 国 天 文学 界 联合 建设 了 
© 中 国 虚 拟 天 文 台 (China-VO) 外 ， 针 对 系统 中 FITS 文件 检索 与 访问 方面 的 问题 ， 文 [5-6] 进 
行 研究 并 构建 了 FiHAS 系统 。 

通常 情况 下 ， 空 间 天 文 数据 采用 定 长 数组 的 方式 存储 为 FITS 文件 。 FITS 格式 文件 由 整 
数 个 长 度 为 2880 字 节 的 报头 和 数据 单元 (Header and Data Unit, HDU) 组 成 ， 其 数据 单元 
区 采用 长 度 固 定 的 ASCI 表 或 者 二 进 制 表 存储 ,但 是 ， 暗 物质 粒子 探测 卫星 的 科学 数据 源 包 
长 度 随 有 效 载荷 探测 模式 、 粒 子 击 中 状态 的 不 同 而 不 同 ， 定 长 数据 的 存储 方式 无 法 满足 其 数 
据 存 储 的 需要 ， 同 时 ， 暗 物质 卫星 是 一 颗 空 间 天 文 卫 星 ， 出 于 数据 共享 的 需求 ， 其 编辑 级 
产品 文件 必须 采用 FITS 格式 存储 。 因 此 ， 需 要 根据 暗物质 卫星 的 数据 特点 ， 设 计 并 实现 一 

种 数组 长 度 可 变 的 FITS 格式 数据 存储 方案 。 


项 目 : 中 国 科学 院 空间 战略 性 先导 专项 地 面 支撑 系统 数据 处 理 与 管理 分 系统 研制 项 目 资助 . 
期 :2017-08-31; 修 订 日 期 :2017-09-18 
简介 : Akte, k, WE, WADE: 空间 天 文 数据 处 理 .Email:yangxiaoyan@mail.ie.ac.cn 


ZS 
收 
作 


it St ¢> 


1 FITS 数据 格式 


FITS 数据 格式 能 够 在 国际 天 文 领域 得 到 广泛 应 用 ， 其 原因 之 一 是 其 自 描述 性 和 灵活 性 。 
标的 FITS 文件 由 一 个 主 HDU 和 一 定数 量 的 扩展 HDU 组 成 ， 每 个 HDU 都 包括 头 单元 和 数 
据 单 元 两 部 分 。 其 中 ， 主 HDU 的 头 单元 包含 该 文件 对 应 的 卫星 名 称 、 生 产 日 期 等 总 体 描 述 
信息 ， 支 持 扩展 定义 ， 数 据 单元 为 空 ， 扩展 HDU 的 头 单元 包含 本 ADU 数据 起 始 结束 时 间 、 
参考 坐标 系 、 各 列 数据 类 型 等 元 数据 信息 ， 也 支持 扩展 定义 ， 数 据 单元 中 以 ASCII 表 或 二 进 
制 表 的 行列 存储 数据 信息 中。 标准 的 FITS 文件 结构 如 表 1。 

表 1 FITS 文件 结构 示意 
Table 1 FITS File structure 


Primary HDU Extension HDU 


Header Header Unit Data Unit 


| Extension HDU | HDU 


Header Unit Data Unit 


2880*N 2880*N 2880*N 2880*N 2880*N 


ASCII 码 ASCII 码 二 进 制 ASCII 码 
表 \ASCII 
K 


单元 以 ASCII 表 或 二 进 制 表 形 式 存储 二 维 数组 ， 每 行 长 度 固 定 ， 每 列 的 数据 类 型 
= FITS 格式 支持 的 数据 类 型 包括 : WR CLD, bit (X), FEW 
(B) ，16 位 整 型 (DD ，32 位 整 型 J) ，64 位 整 型 (K) ， 单 精度 浮 点 型 CE), SUE 
浮 点 型 (D) 。 

Fb, FITS 格式 的 灵活 性 还 支持 对 变 长 数组 进行 存储 ， 存 储 方法 为 在 文件 头 单元 中 定 
义 一 组 特殊 关键 字 ， 指 定 变 长 数组 起 始 位 置 的 偏 移 量 和 数据 总 长 度 。 变 长 数组 的 实体 数据 并 
不 存放 在 数据 单元 中 ， 而 是 存放 在 数据 单元 之 后 的 heap 区 域 中 。 


暗物质 卫星 数据 特点 和 存储 要 求 


着 物质 粒子 探测 卫星 是 中 国 科学 院 空间 科学 战略 性 先导 科技 专项 中 首 批 确定 的 五 颗 科 
学 卫星 之 一 ， 则 在 通过 高 精度 测量 高 能 电子 和 伽 玛 射线 能 谱 及 其 空间 分 布 进行 暗物质 粒子 
探测 ， 寻 找 和 发 现 宇宙 暗物质 粒子 ， 对 其 可 能 的 宇宙 空间 分 布 进行 研究 。 暗 物质 卫星 已 于 
2015 年 12 月 发 射 。 

瞳 物质 卫星 有 效 载 荷 获 取 的 科学 观测 数据 以 及 卫星 平台 采集 的 工程 数据 通过 数 传 通道 
下 传 至 地 面 ， 经 过 帧 同步 、 虚 拟 信 道 分 离 、 源 包 提 取 、 验 证 排序 、 排 重 、 拼 接 / 切 分 等 处 理 后 按 
RE FITS 格式 输出 为 编辑 级 产品 ， 完 成 产品 归档 存储 ， 并 分 发 给 科学 应 用 系统 。 主 要 处 理 流 
程 如 图 1. 
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1 暗物质 卫星 数据 处 理 、 存 储 及 分 发 流程 
Fig. 1 data processing, storage and distribution processes of DAMPE 


暗物质 卫星 数 传 数 据 中 ， 卫 星 平 台 采 集 的 表示 载荷 .平台 工作 状态 的 工程 数据 长 度 是 固定 的 
按照 通用 的 定 长 方式 存储 即 可 ， 而 科学 观测 数据 源 包 由 30 个 数据 帧 队列 组 成 ， 总 长 度 可 变 ， 源 
包 结构 以 及 各 数据 帧 最 大 长 度 如 表 2。 

表 2 暗物质 卫星 科学 数据 源 包 结构 

Table 2 The science data source package structure of DAMPE 
ee | a | 最 大 数据 帧 长 it _ 
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3 
| 24-30 | VAIN, Si, BGO MHI | 5242 
暗物质 卫星 科学 数据 源 包 总 长 度 


晤 物质 卫星 每 轨 下 传 的 数 传 数据 中 ， 科 学 数据 源 包 数量 为 60 iA, BRENG 
20998 字 节 的 最 大 长 度 计算 ， 单 个 文件 大 小 为 11.73GB。 但 实际 上 ， 由 于 科学 数据 帧 的 实际 
长 度 与 有 效 载荷 模式 粒子 击 中 状态 有 关 ， 而 且 星 上 可 能 会 对 数据 进行 压缩 ， 因 此 ， 科 学 数 
据 源 包 长 度 是 变化 的 。 尤 其 是 硅 阵 列 探测 器 ， 总 共有 7 万 多 个 通道 ， 绝 大 多 数 情况 下 ， 没 有 
大 击 中 事例 发 生 ， 其 大 多 数 通道 没有 响应 ， 并 不 输出 科学 数据 。 如果 按 照 最 大 数据 量 存储 ， 
会 造成 暗物质 卫星 科学 数据 文件 量 偏 大 ， 导 致 数据 处 理 和 应 用 的 难度 增加 、 效 率 降低 ， 以 及 
存储 资源 的 巨大 浪费 。 

针对 暗物质 卫星 科学 数据 源 包 4 
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数据 的 FITS 文件 存储 方案 。 
3 FITS 可 变 长 存储 方案 设计 与 实现 


如 上 所 述 ， 上 暗物质 卫星 科学 数据 源 包 长 度 变 化 范围 比较 大 ， 以 下 针对 其 数据 特点 和 存 
储 需求 ， 设 计数 据 存储 方案 ， 并 采用 C++ 语言 调用 CFITSIO03 完 成 软件 实现 。 暗 物质 卫星 数 
据 存 储 方案 设计 如 下 : 

(1) 文件 头 改 造 。 

在 通用 的 定 长 数组 存储 方案 中 ， 文 件 头 中 用 关键 字 tform 指定 数据 类 型 ， 包 括 
L、X、B、L、J 等 类 型 。 在 暗物质 卫星 变 长 数据 存储 方案 中 ，tform 将 赋值 为 TPt(emax) 或 
rQt(emax) 两 种 特殊 类 型 。 其 中 ，7 为 计数 ， 可 以 是 0、! 或 者 不 出 现 ; P、Q 为 数组 描述 符 类 型 ， 
分 别 表示 32 位 、64 位 有 符号 整数 ，t 为 数据 类 型 代码 ，emax 为 数据 长 度 最 长 的 字 节 数 。 根 据 
说 物质 卫星 数据 类 型 ， 设 置 tform=1QB (emax) ， 表 示 数 组 描述 符 类 型 为 64 位 有 符号 整数 ， 
实体 数据 按 字 节 类 型 存储 ，emax 值 从 实际 数据 中 提取 。 

另外 ， 关 键 字 theap 表示 heap 区 域 的 开始 位 置 ， 省 略 时 默认 值 为 数据 单元 长 度 ， 表 示 
heap 区 域 直 接 从 数据 单元 的 下 一 个 字 节 开始 ， 如 果 取 值 大 于 默认 值 ， 表 示 heap 区 域 与 数据 
单元 区 域 之 间 有 一 定 的 间隔 。pcount 为 间隔 大 小 与 heap 区 域 大 小 之 和 。 暗物质 卫星 变 长 数据 
存储 方案 中 ，theap 取 默 认 值 ，pcount 为 科学 源 包 数据 的 字 节 数 ， 该 参数 值 从 实际 数据 中 提 
取 。 

(2) 调用 fits create tbl 函数 ， 创 建 FITS 文件 。 

函数 调用 方式 如 下 : 

fits_create tbl(fitsfile *fptr, int tbltype, LONGLONG naxis2, int tfields, char *ttype[],char 
*tform[], char *tunit[], char *extname, int *status) 

其 中 ，fptr 表示 准备 创建 的 暗物质 卫星 编辑 级 产品 FITS 文件 ; 

tbltype 表示 数据 单元 区 表格 类 型 ，ASCII TBL 表示 ASCI 表 ，BINARY TBL 表示 二 
进 制 表 ， 上 暗物质 卫星 数据 采用 二 进 制 表 存 储 ; 

naxis2 表示 暗物质 卫星 科学 数据 源 包 总 行 数 ， 该 参数 从 实际 数据 中 提取 ; 

tfields 表示 参数 个 数 ， 暗 物质 卫星 科学 数据 源 包产 品 仅 有 CCSDS 源 包 1 个 参数 列 ; 

ttype 表示 参数 名 称 ， 命 名 为 CCSDS; 

tform 表示 参数 类 型 ， 如 上 文 所 述 ， 设 置 tform=1QB(emax); 

tunit 表示 参数 度量 单位 ，CCSDS 源 包 没有 单位 ; 

extname 表示 扩展 HDU 的 名 称 ， 命 名 为 Sci_Src。 

(3) 写 入 数组 描述 符 。 

数组 描述 符 是 一 个 N*2 的 二 维 矩 阵 ，N 为 变 长 数组 的 总 行 数 ， 第 1 列 定义 数组 中 各 行 
数据 的 长 度 ， 第 2 列 定义 各 行 数据 起 始 位 置 在 整个 heap 区 域 的 偏 移 量 ， 取 值 均 为 正 整数 ， 
存储 在 数据 单元 中 。 上 暗物质 卫星 变 长 数据 存储 方案 中 ， 创 建 两 个 N 维 索引 数组 ， 分 别 命名 
为 index_len[N]，index_offset[N]，N 表示 暗物质 卫星 科学 数据 源 包 总 行 数 ， 从 实际 数据 中 
提取 每 行 长 度 ， 存 入 index_len 数组 ， 提 取 每 行 数据 起 始 位 置 偏 移 量 ， 存 入 index_offset 数 
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组 。(4) 在 heap 区 域 中 写 入 变 长 数组 数据 。 

变 长 数组 实体 逐 行 存 在 heap 区 域 中 ， 由 于 theap 取 默 认 值 ， 因 此 ， 存 储 起 始 位 置 就 是 
数据 单元 结束 符 的 下 一 个 字 节 。 然 后 ， 根 据 数组 描述 符 取 值 ， 确 认 各 行 数据 的 起 始 位 置 和 各 
行 长 度 ， 调 用 fits_write_col 函数 ， 将 暗物质 卫星 科学 数据 源 包 数 据 逐 行 写 入 FITS 文件 heap 
区 域 ， 函 数 调用 方式 如 下 : 

int fits_write_col(fitsfile *fptr, int datatype, int colnum, LONGLONG firstrow, LONGLONG 
firstelem, LONGLONG nelements, DTYPE *array, > int *status) 

其 中 ，fptr 表 示 准 备 写 入 的 暗物质 卫星 编辑 级 产品 FITS 文件 ; 

datatype 表示 写 入 方式 ， 暗 物质 卫星 数据 按 字 节 写 入 ， 该 参数 设置 为 TBYTE; 

colnum 表示 行 号 ， 从 第 1 行 开始 ; 

firstrow 表示 起 始 写 入 的 行 号 ， 从 1 开始 ; 

firstelem 表示 该 行 的 第 一 个 元 素 ; 

nelements 为 该 行 数据 长 度 ， 取 值 为 index_len[N]; 

*array 为 准备 写 入 该 行 的 CCSDS 源 包 数据 的 存储 位 置 ， 设置 为 
pt+index.index[N].offset， 其 中 p 为 位 置 指 针 。 


按照 上 述 方案 ， 有 上 暗物质 卫星 数据 FITS 文件 中 扩展 HDU 的 存储 结构 如 下 : 


【数据 单元 】 【heap 】 
存储 暗物质 卫星 数据 数组 | 存储 暗物质 卫星 科学 源 包 


数据 实体 


4 效果 验证 


为 了 验证 上 述 存 储 方案 在 产品 文件 数据 量 、 存 储 效 率 、 处 理 效 率 等 方面 的 性 能 ， 选 择 
2016 年 4 月 29 日 (2041 圈 ) 、2016 年 6 月 5 日 (2605 圈 ) 、2017 年 7 月 3 日 (8595 圈 ) ~ 
2017 年 7 月 25 日 (8923 l) 、2017 年 8 月 30 日 (9478 圈 ) 共 5 轨 上 暗物质 卫星 数 传 数据 中 
科学 源 包 类 数据 的 编辑 级 产品 文件 进行 分 析 。 表 3 对 定 长 FITS 方案 存储 与 变 长 方案 存储 的 
暗物质 卫星 编辑 级 产品 文件 大 小 进行 了 对 比 。 

表 3 两 种 格式 下 FITS 文件 数据 量 对 比 


Table 3 Comparison of the two format file sizes 


序号 ” 源 包 数量 PARAK ” 定 长 FITS 格 式 文 ”暗物质 产品 实际 数据 量 降低 


(个 ) E CY) 件 大 小 (GB) 文件 大 小 CGB) (%) 


1 507797 20998 9.93 1.16 88.36 
2 328236 20998 6.42 0.76 88.21 
3 610706 20998 11.94 1.49 87.56 
4 725230 20998 14.18 1.72 87.85 
5 529467 20998 10.35 1.29 87.56 


5 结果 与 讨论 


真实 数据 的 验证 结果 表明 ， 针 对 暗物质 卫星 的 数据 产品 存储 特点 ， 本 文 提出 的 基于 


FITS 格式 的 变 长 数组 存储 方案 能 够 将 文件 数据 量 降低 88% 左 右 ， 极 大 地 节省 了 数据 存储 空 
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间 ; 同时 ， 由 于 文件 数据 量 的 有 效 降低 ， 数 据 的 处 理 速度 、 产 品 的 归档 速度 和 应 用 效率 都 得 
到 了 明显 提升 。 


本 文 提出 的 基于 FITS 格式 的 可 变数 组 存储 方案 能 够 扩展 应 用 到 其 他 数据 长 度 变化 的 天 


文 数据 存储 中 ， 该 方案 能 够 有 效 降低 数据 存储 量 ， 降 低 效 率 取决 于 实际 数据 长 度 与 最 大 数 


据 长 度 的 平均 比例 。 
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Abstract: FITS (Flexible Image Transport system) is a data format widely used in space 
astronomy, and astronomical data files are usually stored in a fixed-length data structure as FITS 
files. As the first space science satellite in our country, DAMPE (Dark Matter Particle Explorer) 
satellite’s science data source package has the characteristics of variable length. In DAMPE data 
processing process, it is urgent to design a storage structure and processing method that supports 
variable length data. This paper designed a FITS format that supports variable-length arrays and 
implemented DAMPE data processing, storage, and management with this data structure. The 
validation with real data of DAMPE indicated that this method was successfully applied to editing 
grade products storage of DAMPE, not only significantly reducing the amount of product data, 
saving storage space, but also improving the speed of data processing. 
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